Sommaire

Introduction

Partie 1: Statistique descriptive

Presentation

  • On a ici un diagramme en barre des effectifs dans chaque laboratoire.
  • Les individus de la base de données sont repatis dans 9 laboratoires
  • On constate un effectif plus grand dans le laboratoire 4 par rapport aux autres et un effectif plus faible dans le laboratoire 2.

On se concentre ici sur le LAB8 pour regarder le résumé de la variable recyclage_index.

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.4444  0.6667  0.7778  0.7607  0.8889  1.0000 

Nous remarquons que, pour le laboratoire 8: * La valeur moyenne d’indice de recyclage est de 0.76. Ce qui signifie, en moyenne, un bon indice de recyclage dans ce laboratoire. * Le plus petit indice de recyclage est de 0.44 * Le plus grand indice de recyclage est de 1

Construction de la BDD reseau

#2.a
 NW <- lab |> select(1:7)

#2.b
coll_cite <-  melt(NW, id.vars="identifiant")
coll_cite <- coll_cite |> select(-c("variable"))

#2.c
coll_cite <- coll_cite |> arrange(identifiant) |> na.omit()
#2.d
lab_socio <- lab |> select(c("identifiant","doctorat","revenu_sup_3000","femme",
                              "age","nb_HH","recyclage_index"))

Statistique descriptive du réseau

  personnes         nbre_collegue_cite
 Length:339         Min.   :1.000     
 Class :character   1st Qu.:2.000     
 Mode  :character   Median :3.000     
                    Mean   :3.283     
                    3rd Qu.:5.000     
                    Max.   :6.000     

La base de données est constitué de 339 individus. On voit qu’il y a possiblement des individus isolés et qu’en moyenne un individu a 3 collègues et peut en avoir jusque 6.

Les individus du Laboratoire 8 isolés sont: 
 LAB1026 LAB2006 LAB2017 LAB2028 LAB2036 LAB3036 LAB4060 LAB4090 LAB4102 LAB5002 LAB6008 LAB6037 LAB6039 LAB7004 LAB7025 LAB7033 LAB7034 LAB7038 LAB8041 LAB9012 LAB9029 LAB9030 LAB9045 
 Ils sont au nombre de :  23

  • Analysons maintenant le graphe.
  • Ce graphe illustre un réseau de citations entre individus dans le cadre d’une enquête au sein de LAB 8, où les couleurs des nœuds distinguent les revenus (rouge pour ceux supérieurs à 3000, vert pour inférieurs) et les formes indiquent le niveau d’éducation (les carrés pour les détenteurs d’un doctorat, les cercles sinon).
  • Visuellement, on constate une prédominance de personnes à revenu élevé (nœuds rouges) et un mélange d’individus avec et sans doctorat, signe d’une diversité académique.
  • Les connexions entre les nœuds suggèrent une structure de réseau bien interconnecté, avec des individus souvent citant ou étant cités par plusieurs autres, ce qui pourrait indiquer l’existence de figures centrales ou d’influence au sein de ce réseau.

On peut maintenant afficher le nombre de degrés entrant et sortant par individus dans le laboratoire 8 et analyser la distribution des degrés au sein de ce laboratoire.

   rowname degree
1  LAB8031     14
2  LAB8007     13
3  LAB8033     13
4  LAB8035     13
5  LAB8038     13
6  LAB8003     12
7  LAB8010     11
8  LAB8012     11
9  LAB8034     11
10 LAB8005     10
   rowname degree_in
1  LAB8038        11
2  LAB8033        10
3  LAB8007         9
4  LAB8031         8
5  LAB8035         7
6  LAB8003         6
7  LAB8015         6
8  LAB8017         6
9  LAB8009         5
10 LAB8010         5
   rowname degree_out
1  LAB8003          6
2  LAB8005          6
3  LAB8008          6
4  LAB8010          6
5  LAB8012          6
6  LAB8014          6
7  LAB8029          6
8  LAB8030          6
9  LAB8031          6
10 LAB8034          6

On constate tout d’abord que plus d’un quart des individus sont reliés à 4 personnes. On constate aussi des valeurs extrêmes avec des gens connectés avec tout le monde dans le réseau ou des personnes isolées.

On a ici l’histogramme des degrés entrants. La plupart des gens ont 0,2 ou 4 degrés entrants. Il y a toutefois des valeurs extrêmes.

  • On a une distribution quasi uniforme. On voit toutefois que peu de gens ont 5 degrés sortants et que la plupart ont 6 degrés sortant.
  • Ce qui s’explique par le fait qu’on ait 6 personnes à citer lors de l’enquete. La majorité des personnes ont cité 6 collegues, tandis que d’autres en ont cité un peu moins.
  • Il y a plus de personnes qui ont un degré entrant nul que de personnes qui ont un degré sortant nul.

Regardons maintenant la distribution des distances au sein du réseau.

The average distance in the network is:  3.608533

On remarque que la distribution semble normale centrée entre 2 et 3.

On s’intéresse maintenant à la notion de centralité dans le graphe. Pour cela, on regarde la proximité nodale qui indique à quel point un nœud est proche de tous les autres nœuds dans le réseau.

   rowname  closeness
1  LAB8005 0.01333333
2  LAB8007 0.01315789
3  LAB8038 0.01315789
4  LAB8033 0.01282051
5  LAB8008 0.01162791
6  LAB8020 0.01162791
7  LAB8026 0.01162791
8  LAB8035 0.01162791
9  LAB8015 0.01123596
10 LAB8003 0.01111111
  • En prenant en compte les statistiques descriptives précédentes, on peut faire l’analyse suivante:
  • Au sein d’un réseau comprenant 300 individus, les faibles valeurs de proximité observées pourraient indiquer que le réseau n’est pas très dense, avec une distance moyenne relativement grande entre les individus. Cependant, la distribution des distances montre une concentration notable de courtes distances, ce qui suggère l’existence de clusters ou de groupes d’individus plus étroitement liés.
  • Concernant la distribution des degrés sortants, on remarque une prédominance de nœuds ayant peu de liens sortants, tandis que la distribution des degrés entrants révèle un plus grand équilibre, bien que quelques individus soient nettement plus cités que d’autres.
  • LAB8005 se démarque avec la plus haute valeur de proximité du réseau, ce qui implique qu’il est en moyenne le plus proche des autres individus, reflétant une position centrale dans le réseau. Cette centralité peut être interprétée comme une plus grande implication de cet individu dans les interactions au sein du réseau, possiblement en tant que référent fréquent ou source majeure de citations dans l’enquête.
   rowname closeness_in
1  LAB8030   0.50000000
2  LAB8001   0.33333333
3  LAB8029   0.33333333
4  LAB8038   0.01315789
5  LAB8033   0.01282051
6  LAB8035   0.01149425
7  LAB8007   0.01052632
8  LAB8015   0.01030928
9  LAB8003   0.01020408
10 LAB8026   0.01020408
  • Le nœud portant l’identifiant LAB8030 se distingue par une valeur de centralité de proximité entrante la plus élevée, atteignant 0.5.
  • Cette mesure indique clairement sa position centrale dans le réseau, suggérant qu’il est plus accessible depuis d’autres nœuds en moyenne, ce qui peut signifier une influence significative au sein du projet.
  • De plus, il est important de noter que les nœuds LAB8001 et LAB8029 présentent également des valeurs de proximité élevées, à 0.3333333, ce qui suggère qu’ils jouent également un rôle central au sein de ce réseau.
   rowname closeness_out
1  LAB8008   0.011627907
2  LAB8005   0.010638298
3  LAB8003   0.010526316
4  LAB8012   0.010526316
5  LAB8010   0.010204082
6  LAB8031   0.010000000
7  LAB8014   0.009900990
8  LAB8009   0.009708738
9  LAB8007   0.009615385
10 LAB8034   0.009615385
  • Le nœud LAB8008 a la valeur la plus élevée (0.011627907), ce qui signifie qu’il est le plus central selon cette métrique parmi les nœuds affichés.
  • Cela pourrait indiquer que LAB8008 cite un grand nombre d’autres individus ou est impliqué dans de nombreuses interactions sortantes.
  • Les valeurs de centralité diminuent pour les autres nœuds listés, avec LAB8034 ayant la valeur la plus basse (0.009615385), ce qui suggère qu’il est moins central dans le réseau en termes de connexions sortantes
   rowname betweenness
1  LAB8035    363.1583
2  LAB8003    321.8158
3  LAB8020    267.8409
4  LAB8018    251.5250
5  LAB8007    242.2842
6  LAB8017    187.9925
7  LAB8005    185.4009
8  LAB8015    174.4358
9  LAB8012    164.1023
10 LAB8038    156.7250
  • Les individus identifiés par LAB8035 et LAB8003 se distinguent par les valeurs les plus élevées, ce qui suggère qu’ils jouent fréquemment un rôle crucial en tant que points de passage obligés dans les chemins les plus courts entre d’autres paires de nœuds.
  • Cette constatation suggère qu’ils occupent des positions de médiateur ou de pont essentielles dans le réseau, favorisant ou régulant la circulation de l’information ou des interactions entre les autres membres du réseau.
  • En outre, ces valeurs élevées peuvent indiquer des positions stratégiques, où ces individus ont le potentiel d’influencer ou de connecter divers groupes ou communautés au sein de la structure globale du réseau.
   rowname            edge betweenness
1      125 LAB8035|LAB8018    237.0583
2       57 LAB8015|LAB8003    173.6942
3      134 LAB8038|LAB8035    150.2750
4       20 LAB8007|LAB8017    138.2509
5       66 LAB8018|LAB8020    127.9000
6        8 LAB8003|LAB8010    119.9526
7       73 LAB8020|LAB8005    110.3909
8       71 LAB8020|LAB8037    110.0000
9       18 LAB8006|LAB8025    106.0000
10      13 LAB8005|LAB8007    100.0842

Les liens entre les nœuds LAB8035|LAB8018 et LAB8015|LAB8003 affichent les valeurs les plus élevées en termes d’intermédiarité, indiquant ainsi qu’ils sont souvent empruntés dans les trajets les plus courts entre les nœuds du réseau.

The eigen value centrality of the graph is:  9.819738
    LAB8001     LAB8002     LAB8003     LAB8005     LAB8006     LAB8007 
0.072174678 0.199372246 0.901015209 0.497058291 0.111284059 0.893736803 
    LAB8008     LAB8009     LAB8010     LAB8011     LAB8012     LAB8014 
0.412701894 0.450583746 0.849316187 0.220041936 0.691414242 0.539151988 
    LAB8015     LAB8016     LAB8017     LAB8018     LAB8019     LAB8020 
0.654370828 0.352466879 0.555516023 0.205582162 0.023804538 0.190703487 
    LAB8021     LAB8022     LAB8024     LAB8025     LAB8026     LAB8027 
0.051223149 0.286791276 0.591581439 0.105331296 0.379594610 0.366828694 
    LAB8028     LAB8029     LAB8030     LAB8031     LAB8032     LAB8033 
0.151044515 0.323033618 0.259016476 1.000000000 0.105331296 0.828684673 
    LAB8034     LAB8035     LAB8037     LAB8038     LAB8040     LAB8041 
0.777513215 0.652546269 0.043050839 0.712379091 0.008768225 0.056571368 
    LAB8042     LAB8043     LAB8044 
0.174776235 0.010432691 0.070968204 
  • Les sorties ci-dessus révèlent que le réseau possède une forte centralité basée sur ses propres vecteurs, avec certains nœuds ayant une influence marquée, indiquée par des valeurs élevées, ce qui suggère qu’ils sont des points clés dans le réseau, bien connectés et également liés à d’autres nœuds influents.
  • En particulier, le nœud LAB8031 se distingue comme étant particulièrement central.
Number of dyads in the network: 38 
 Les types de dyades du reseau sont:  Null Dyad  et  Mutual Dyad

Le nombre de dyades montre que plusieurs relations bidirectionnelles existent, impliquant une structure de réseau où de nombreux nœuds interagissent mutuellement.

  • On peut observer une diversité significative dans la répartition des niveaux de revenu et des titres de doctorat à travers le réseau, ce qui témoigne d’une variété socio-économique et éducative parmi les individus cités. Les connexions entre les nœuds associés à différents revenus et niveaux éducatifs révèlent que les interactions et les références ne sont pas limitées à des catégories spécifiques, mais qu’elles traversent ces diverses catégories.

  • Certains nœuds agissent comme des points centraux, avec un grand nombre de connexions entrantes et sortantes, ce qui peut indiquer qu’ils sont fortement cités ou référencés, potentiellement en tant que figures centrales ou influentes au sein du réseau. La présence de ces hubs peut jouer un rôle essentiel dans la propagation d’informations ou dans la dynamique sociale du groupe.

  • Bien que le réseau ne présente pas de “cliques”, on peut néanmoins identifier l’existence de sous-groupes plus ou moins informels. Certains nœuds agissent comme des ponts entre ces sous-groupes, favorisant ainsi l’intégration globale du réseau.

The graph's density is:  0.0951417
  • La densité du graphe affiche une valeur de 0.0951417, ce qui indique une connectivité relativement faible au sein du réseau. En d’autres termes, seulement environ 9,5 % des liens possibles entre tous les nœuds sont effectivement établis.
  • Cette constatation suggère qu’il existe encore un potentiel considérable pour de nouvelles connexions, malgré quelques individus bien connectés.
The graph's reciprocity is:  0.5673759
  • En ce qui concerne la réciprocité du graphe, elle atteint un niveau de 0.5673759, révélant ainsi un degré de mutualité modéré à élevé dans les relations.
  • Environ 56,7 % des liens sont réciproques, ce qui signifie que lorsque quelqu’un, par exemple A, mentionne ou se réfère à quelqu’un d’autre, B, il y a une forte probabilité que B fasse également référence à A.
  • Cette observation peut refléter un réseau où les collaborations, les communications ou les citations sont fréquemment bidirectionnelles.
The graph's transitivity is:  0.330373
  • En ce qui concerne la transitivité, ou coefficient de clustering global, il est évalué à 0.330373.
  • Ce chiffre suggère qu’un nœud donné a une probabilité de 33,03 % que ses voisins soient également connectés entre eux.
  • Cette constatation peut indiquer la présence de communautés ou de groupes compacts au sein du réseau, où les membres ont tendance à se regrouper.
  • Cependant, cette valeur n’est pas excessivement élevée, ce qui suggère que le réseau ne présente pas une forte propension à former des cliques, et qu’il existe des possibilités d’accroître la cohésion au sein du réseau.

Partie 2: Etude du rôle des effets de pairs dans les comportements de recyclage – modèle à la Manski

Rappel :

Le modèle de Manski se réfère à l’idée que les individus prennent leurs décisions en tenant compte des choix de leurs pairs, formant ainsi des réseaux d’influence. Il se repose sur les critères suivants :


Call:
lm(formula = recyclage_index ~ doctorat + revenu_sup_3000 + femme + 
    age + nb_HH + mean_doctorat + mean_revenu_sup_3000 + mean_femme + 
    mean_age + mean_nb_HH + mean_recyclage_index, data = t_m)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.57295 -0.08643  0.00883  0.10022  0.39417 

Coefficients:
                      Estimate Std. Error t value Pr(>|t|)    
(Intercept)           1.789660   0.330359   5.417 1.18e-07 ***
doctorat              0.028664   0.021232   1.350 0.177929    
revenu_sup_3000       0.061538   0.025403   2.422 0.015957 *  
femme                 0.059901   0.017520   3.419 0.000708 ***
age                  -0.001727   0.000928  -1.861 0.063575 .  
nb_HH                 0.019717   0.007549   2.612 0.009421 ** 
mean_doctorat         0.022142   0.102665   0.216 0.829380    
mean_revenu_sup_3000  0.267235   0.282243   0.947 0.344427    
mean_femme            0.001856   0.113738   0.016 0.986990    
mean_age              0.013781   0.005711   2.413 0.016370 *  
mean_nb_HH            0.394493   0.083383   4.731 3.33e-06 ***
mean_recyclage_index -4.198580   0.702356  -5.978 5.92e-09 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.1544 on 327 degrees of freedom
Multiple R-squared:  0.2042,    Adjusted R-squared:  0.1774 
F-statistic: 7.627 on 11 and 327 DF,  p-value: 1e-11

De cette régression, on peut en tirer les conclusions suivantes:

En ne prenant que les variables significatives, nous pourrons conclure:

NB:

Partie 3 - Etude du rôle des effets de pairs dans les comportements de recyclage – modèle à la Bramoullé


Call:
iv_robust(formula = recyclage_index ~ doctorat + revenu_sup_3000 + 
    femme + age + nb_HH | mean_doctorat + mean_revenu_sup_3000 + 
    mean_femme + mean_age + mean_nb_HH + mean_recyclage_index + 
    lab, data = t_m, clusters = lab)

Standard error type:  CR2 

Coefficients:
                 Estimate Std. Error t value  Pr(>|t|)   CI Lower  CI Upper
(Intercept)      0.659870   0.023849  27.669 2.263e-08  6.034e-01 0.7163409
doctorat         0.032959   0.013351   2.469 4.966e-02  6.810e-05 0.0658494
revenu_sup_3000  0.045536   0.037725   1.207 2.694e-01 -4.502e-02 0.1360964
femme            0.069984   0.023723   2.950 2.249e-02  1.338e-02 0.1265845
age             -0.001829   0.000832  -2.198 7.031e-02 -3.865e-03 0.0002074
nb_HH            0.016389   0.006881   2.382 4.929e-02  6.753e-05 0.0327112
                   DF
(Intercept)     6.953
doctorat        5.837
revenu_sup_3000 6.518
femme           6.705
age             5.992
nb_HH           6.896

Multiple R-squared:  0.09108 ,  Adjusted R-squared:  0.07743 
F-statistic: 26.31 on 5 and 8 DF,  p-value: 9.086e-05

Dans la régression linéaire robuste:


Call:
iv_robust(formula = recyclage_index ~ doctorat + revenu_sup_3000 + 
    femme + age + nb_HH + G_doctorat + G_revenu_sup_3000 + G_femme + 
    G_age + G_nb_HH + G_recyclage_index | doctorat + revenu_sup_3000 + 
    femme + age + nb_HH + G_doctorat + G_revenu_sup_3000 + G_femme + 
    G_age + G_nb_HH + G2_doctorat + G2_revenu_sup_3000 + G2_femme + 

Standard error type:  HC2 

Coefficients:
                    Estimate Std. Error   t value Pr(>|t|)  CI Lower   CI Upper
(Intercept)        7.618e-01   0.367652  2.071950 0.039054  0.038495  1.4850177
doctorat           3.151e-02   0.023874  1.320038 0.187746 -0.015451  0.0784801
revenu_sup_3000    5.598e-02   0.031097  1.800184 0.072753 -0.005195  0.1171550
femme              6.342e-02   0.019812  3.200970 0.001504  0.024443  0.1023929
age               -2.288e-03   0.001100 -2.079715 0.038330 -0.004452 -0.0001237
nb_HH              1.272e-02   0.008851  1.437173 0.151625 -0.004692  0.0301319
G_doctorat        -2.012e-02   0.037425 -0.537741 0.591122 -0.093748  0.0534989
G_revenu_sup_3000  9.541e-04   0.039376  0.024230 0.980684 -0.076507  0.0784153
G_femme            9.359e-03   0.039759  0.235392 0.814052 -0.068858  0.0875757
G_age              1.725e-03   0.001763  0.978029 0.328783 -0.001744  0.0051933
G_nb_HH           -3.622e-05   0.021370 -0.001695 0.998649 -0.042077  0.0420047
G_recyclage_index -1.923e-01   0.571091 -0.336743 0.736527 -1.315786  0.9311645
                   DF
(Intercept)       327
doctorat          327
revenu_sup_3000   327
femme             327
age               327
nb_HH             327
G_doctorat        327
G_revenu_sup_3000 327
G_femme           327
G_age             327
G_nb_HH           327
G_recyclage_index 327

Multiple R-squared:  0.06715 ,  Adjusted R-squared:  0.03577 
F-statistic: 3.233 on 11 and 327 DF,  p-value: 0.0003328

Conclusion